学习理论

参数空间对称性:深度学习理论的统一几何框架

过去十年,深度学习模型的规模从上百万参数的卷积网络扩展到上千亿参数的大语言模型,性能突飞猛进。然而,我们对这些模型为何有效仍缺乏系统性的理解。一个关键但常被忽视的原因在于:在神经网络中,存在大量 “不同却等价” 的参数配置 —— 它们实现相同的模型函数,却让优

神经网络 几何 函数 泛化 学习理论 2025-10-29 17:30  2